正當 OpenAI Sora 的影片生成 AI 模型消息震驚世人,Google 日前也發布一款影片生成模型「VLOGGER」,僅靠一張相和一段語音,即可生成影片,示範影片效果也同樣逼真。
即刻【按此】,用 App 睇更多產品開箱影片
Google VLOGGER 新 AI 模型
【點擊睇 Google VLOGGER 示範影片】
經濟日報報道,Google 研究團隊最近開發一款全新 AI 系統「VLOGGER」,系統能夠將單一靜態圖像和音頻檔案轉化為動態影片,令圖片人物能夠根據聲音做到表情變化,甚至說話能夠「對口型」。
研究團隊指出,VLOGGER 的一大亮點是其對於特定人物無需進行預先訓練,也不依靠臉部識別和剪接技術,說能夠直接生成完整的影片。此外,它還能夠考慮到不同人物的身型或身份特徵來進行生成。而關鍵就在於系統的擴散模型和數據庫「MENTOR」,其中包含超過 80 萬不同人物和超過 2,200 小時影像資料,使生成影片能夠覆蓋多個不同種族、年齡、服裝和姿態的人物。不過,VLOGGER 目前還有其局限性,比如無法生成長影片,背景基本上為靜態,且人物不能在 3D 環境中走動。
【熱門報道】
Source:hket